智能论文笔记

Fair Ranking as Fair Division: Impact-Based Individual Fairness in Ranking

Yuta Saito , Thorsten Joachims

分类：人工智能 | 机器学习

2022-06-15

排名已成为双面在线市场的主要界面。许多人指出，排名不仅影响用户的满意度（例如，客户，听众，雇主，旅行者），而且排名中的位置将曝光率分配给排名项目（例如，例如文章，产品，歌曲，求职者，餐馆，酒店）。这已经提出了对项目的公平性问题，大多数现有作品通过将项目的暴露与项目相关性明确链接在一起，从而解决了公平性。但是，我们认为，这种链接功能的任何特定选择都可能很难捍卫，我们表明结果排名仍然不公平。为了避免这些缺点，我们开发了一种植根于公平分裂原则的新的公理方法。这不仅避免了选择链接功能的需求，而且更有意义地量化了对曝光范围之外的项目的影响。我们对统一排名的嫉妒性和主导地位的公理假设，对于公平排名政策，每个项目都应该比其他任何项目的排名分配，并且任何项目都不应受到排名的不利影响。为了计算按照这些公理的公平政策，我们提出了一个与纳什社会福利有关的新排名目标。我们表明，该解决方案已保证其嫉妒性，其对每个项目的统一排名的主导地位以及帕累托的最优性。相比之下，我们表明，基于暴露的公平性可以产生大量嫉妒，并对这些物品产生高度不同的影响。除了这些理论上的结果外，我们还从经验上说明了我们的框架如何控制基于影响的个人项目公平和用户实用程序之间的权衡。

translated by 谷歌翻译

Off-Policy Evaluation for Large Action Spaces via Embeddings

Yuta Saito , Thorsten Joachims

分类：机器学习 | 人工智能 | (统计)机器学习

2022-02-13

在上下文土匪中，非政策评估（OPE）已在现实世界中迅速采用，因为它仅使用历史日志数据就可以离线评估新政策。不幸的是，当动作数量较大时，现有的OPE估计器（其中大多数是基于反相反的得分加权）会严重降解，并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题，我们提出了一个新的OPE估计器，即当动作嵌入在动作空间中提供结构时，利用边缘化的重要性权重。我们表征了所提出的估计器的偏差，方差和平方平方误差，并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外，我们还发现，即使由于大量作用，现有估计量崩溃，经验性绩效的改善也可以实现可靠的OPE。

translated by 谷歌翻译

Probability Distribution on Full Rooted Trees

Yuta Nakahara , Shota Saito , Akira Kamatsuka , Toshiyasu Matsushima

分类： (统计)机器学习 | 机器学习

2021-09-27

全根树的递归和分层结构适用于在各个领域代表统计模型，例如数据压缩，图像处理和机器学习。在大多数情况下，全根树不是随机变量;因此，避免过度装备的模型选择变得有问题。解决这个问题的方法是假设全根树上的先前分发。这使得基于贝叶斯决策理论可以避免过度装备。例如，通过将低的先前概率分配给复杂模型，最大后验估计器可防止过度拟合。此外，可以通过平均由其后后索加权的所有模型来避免过烧。在本文中，我们提出了一组全根树的概率分布。其参数表示适用于使用递归函数计算我们分发的性质，例如模式，期望和后部分布。尽管在以前的研究中已经提出了这种分布，但它们仅适用于特定应用。因此，我们提取他们的数学基本的组件，并推出了新的广义方法来计算期望，后部分布等。

translated by 谷歌翻译

CMA-ES with Margin for Single-and Multi-Objective Mixed-Integer Black-Box Optimization

Ryoki Hamano , Shota Saito , Masahiro Nomura , Shinichi Shirakawa

分类：神经与进化计算

2022-12-19

This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing modification to the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple extension of the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method. Furthermore, in order to demonstrate the generality of the idea of the proposed method, in addition to the single-objective optimization case, we incorporate it into multi-objective CMA-ES and verify its performance on bi-objective mixed-integer benchmark problems.

translated by 谷歌翻译

Unsupervised vocal dereverberation with diffusion-based generative models

Koichi Saito , Naoki Murata , Toshimitsu Uesaka , Chieh-Hsin Lai , Yuhta Takida , Takao Fukui , Yuki Mitsufuji

分类：机器学习

2022-11-08

Removing reverb from reverberant music is a necessary technique to clean up audio for downstream music manipulations. Reverberation of music contains two categories, natural reverb, and artificial reverb. Artificial reverb has a wider diversity than natural reverb due to its various parameter setups and reverberation types. However, recent supervised dereverberation methods may fail because they rely on sufficiently diverse and numerous pairs of reverberant observations and retrieved data for training in order to be generalizable to unseen observations during inference. To resolve these problems, we propose an unsupervised method that can remove a general kind of artificial reverb for music without requiring pairs of data for training. The proposed method is based on diffusion models, where it initializes the unknown reverberation operator with a conventional signal processing technique and simultaneously refines the estimate with the help of diffusion models. We show through objective and perceptual evaluations that our method outperforms the current leading vocal dereverberation benchmarks.

translated by 谷歌翻译

Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech

Yusuke Nakai , Yuki Saito , Kenta Udagawa , Hiroshi Saruwatari

分类：人工智能 | 机器学习

2022-09-26

我们提出了一种基于多任务对抗训练的多扬声器神经文本到语音（TTS）模型的新型培训算法。传统的基于基于的训练算法的常规生成对抗网络（GAN）通过减少自然语音和合成语音之间的统计差异来显着提高合成语音的质量。但是，该算法不能保证训练有素的TTS模型的概括性能在综合培训数据中未包括的看不见的说话者的声音中。我们的算法替代训练两个深神经网络：多任务歧视器和多扬声器神经TTS模型（即GAN的生成器）。对歧视者的训练不仅是为了区分自然语音和合成语音，而且还存在验证输入语音的说话者的存在或不存在（即，通过插值可见的说话者的嵌入向量而新生成）。同时，对发电机进行了训练，以最大程度地减少语音重建损失的加权总和和欺骗歧视者的对抗性损失，即使目标扬声器看不见，也可以实现高质量的多演讲者TT。实验评估表明，我们的算法比传统的甘斯多克算法更好地提高了合成语音的质量。

translated by 谷歌翻译

Neural Architecture Search for Improving Latency-Accuracy Trade-off in Split Computing

Shoma Shimizu , Takayuki Nishio , Shota Saito , Yoichi Hirose , Chen Yen-Hsiu , Shinichi Shirakawa

分类：机器学习

2022-08-30

本文提出了一种用于拆分计算的神经体系结构搜索（NAS）方法。拆分计算是一种新兴的机器学习推理技术，可解决在物联网系统中部署深度学习的隐私和延迟挑战。在拆分计算中，神经网络模型通过网络使用Edge服务器和IoT设备进行了分离和合作处理。因此，神经网络模型的体系结构显着影响通信有效载荷大小，模型准确性和计算负载。在本文中，我们解决了优化神经网络体系结构以进行拆分计算的挑战。为此，我们提出了NASC，该NASC共同探讨了最佳模型架构和一个拆分点，以达到延迟需求（即，计算和通信的总延迟较小，都比某个阈值较小）。 NASC采用单发NAS，不需要重复模型培训进行计算高效的体系结构搜索。我们使用硬件（HW） - 基准数据的NAS基础的绩效评估表明，拟议的NASC可以改善``通信潜伏期和模型准确性''的权衡，即，将延迟降低了约40-60％，从基线降低了约40-60％有轻微的精度降解。

translated by 谷歌翻译

HTML版本

Learning More May Not Be Better: Knowledge Transferability in Vision and Language Tasks

Tianwei Chen , Noa Garcia , Mayu Otani , Chenhui Chu , Yuta Nakashima , Hajime Nagahara

分类：计算机视觉 | 人工智能

2022-08-23

训练视觉和语言模型的更多数据总是更好吗？我们研究多模式任务中的知识可传递性。当前的机器学习趋势是假设通过从不同任务加入多个数据集，其整体绩效将有所改善。但是，我们表明，并非所有知识都会很好地转移或对相关任务产生积极影响，即使它们共享一个共同的目标也是如此。我们基于数百种分为4组的视觉和语言任务进行了数百个跨表现的分析。尽管同一组中的任务容易相互改进，但结果表明并非总是如此。其他因素（例如数据集大小或训练阶段）也对知识的转移程度也有很大的影响。

translated by 谷歌翻译

Neural Strands: Learning Hair Geometry and Appearance from Multi-View Images

Radu Alexandru Rosu , Shunsuke Saito , Ziyan Wang , Chenglei Wu , Sven Behnke , Giljoo Nam

分类：计算机视觉

2022-07-28

我们提出了神经链，这是一个新颖的学习框架，用于对多视图图像输入进行准确的头发几何形状和外观进行建模。从任何观点都具有高保真视图依赖性效果，可以实时渲染学习的头发模型。我们的模型可实现直观的形状和风格控制，与体积同行不同。为了实现这些特性，我们提出了一种基于神经头皮纹理的新型头发表示，该神经头皮纹理编码每个Texel位置的单个链的几何形状和外观。此外，我们基于学习的头发链的栅格化引入了一个新型的神经渲染框架。我们的神经渲染是链的和抗氧化的，使渲染视图一致且逼真。将外观与多视图几何事先结合在一起，我们首次启用了外观的联合学习和从多视图设置的显式头发几何形状。我们证明了我们的方法在各种发型的忠诚度和效率方面的功效。

translated by 谷歌翻译

Audio-driven Neural Gesture Reenactment with Video Motion Graphs

Yang Zhou , Jimei Yang , Dingzeyu Li , Jun Saito , Deepali Aneja , Evangelos Kalogerakis

分类：计算机视觉

2022-07-23

人的言语通常伴随着包括手臂和手势在内的身体手势。我们提出了一种方法，该方法将与目标语音音频相匹配的手势重新效果。我们方法的关键思想是通过编码剪辑之间的有效过渡的新型视频运动图从参考视频中拆分和重新组装剪辑。为了在重演中无缝连接不同的剪辑，我们提出了一个姿势感知的视频混合网络，该网络综合了两个剪辑之间的缝线框架周围的视频帧。此外，我们开发了一种基于音频的手势搜索算法，以找到重新成型帧的最佳顺序。我们的系统生成的重演与音频节奏和语音内容一致。我们定量，用户研究对综合视频质量进行评估，并证明我们的方法与以前的工作和基线相比，我们的方法与目标音频的质量和一致性更高。

translated by 谷歌翻译